Research and application of XGBoost in imbalanced data

نویسندگان

چکیده

As a new and efficient ensemble learning algorithm, XGBoost has been widely applied for its multitudinous advantages, but classification effect in the case of data imbalance is often not ideal. Aiming at this problem, an attempt was made to optimize regularization term XGBoost, algorithm based on mixed sampling proposed. The main idea combine SVM-SMOTE over-sampling EasyEnsemble under-sampling technologies processing, then obtain final model by training ensemble. At same time, optimal parameters are automatically searched adjusted through Bayesian optimization realize prediction. In experimental stage, G-mean area under curve (AUC) values used as evaluation indicators compare analyze performance different methods models. results public set also verify feasibility effectiveness proposed algorithm.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Enhancing Learning from Imbalanced Classes via Data Preprocessing: A Data-Driven Application in Metabolomics Data Mining

This paper presents a data mining application in metabolomics. It aims at building an enhanced machine learning classifier that can be used for diagnosing cachexia syndrome and identifying its involved biomarkers. To achieve this goal, a data-driven analysis is carried out using a public dataset consisting of 1H-NMR metabolite profile. This dataset suffers from the problem of imbalanced classes...

متن کامل

: metadiscourse in introduction sections of applied linguistics and physics research articles: exploring variation in frequency and type

abstract in written mode of language, metadiscourse markers are used commonly to help writers in general and academic writers in particular to produce coherent and professional texts. the purpose of the present study was to compare introduction sections of applied linguistics and physics articles regarding their use of interactive and interactional metadiscourse markers based on the model pro...

15 صفحه اول

the clustering and classification data mining techniques in insurance fraud detection:the case of iranian car insurance

با توجه به گسترش روز افزون تقلب در حوزه بیمه به خصوص در بخش بیمه اتومبیل و تبعات منفی آن برای شرکت های بیمه، به کارگیری روش های مناسب و کارآمد به منظور شناسایی و کشف تقلب در این حوزه امری ضروری است. درک الگوی موجود در داده های مربوط به مطالبات گزارش شده گذشته می تواند در کشف واقعی یا غیرواقعی بودن ادعای خسارت، مفید باشد. یکی از متداول ترین و پرکاربردترین راه های کشف الگوی داده ها استفاده از ر...

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: International Journal of Distributed Sensor Networks

سال: 2022

ISSN: ['1550-1329', '1550-1477']

DOI: https://doi.org/10.1177/15501329221106935